MORAN:一种基于像素级不规则文本纠正的识别新方法(附Pytorch开源代码)
本文简要介绍近期被Pattern Recognition录用的论文“Canjie Luo, Lianwen Jin, Zenghui Sun, MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition, accept to appear in Pattern Recognition, 2019”的主要工作。其提出了一种面向不规则及通用场景文本的识别模型MORAN(Multi-Object Rectified Attention Network),MORAN由矫正子网络MORN和识别子网络ASRN组成,在矫正子网络MORN中设计了一种新颖的像素级弱监督学习机制来进行不规则文本的形状纠正,以降低不规则文本的识别难度。矫正子网络和识别子网络可端到端联合训练,也不需要字符位置或像素级分割等监督信息,使得网络的训练大大简化。在常用的IIIT 5K、IC03、IC13、SVT、SVT-Perspective、CUTE80、IC15等7个数据集上,取得了state-of-the-art的识别性能。论文相关代码已开源,下载链接见文末。
文字作为信息传递的重要载体,被广泛应用到各个场景中。然而,由于各种场景的复杂性,文本的字体、形状以及所处的背景变化多端,给文本的识别带来巨大的挑战。本文针对不规则形状场景文本识别问题[1],提出了一种像素级预测的不规则文本纠正方法及相应的识别模型。
图1 文本多样化的形状(a)水平规则文本;(b)倾斜文本;(c)弯曲文本
常用的图像纠正算法,例如仿射变换,对图像的纠正局限于缩放、旋转和平移。
图2 STN学习的仿射变换 [3]
这种带有显式数学表达的变换过程受到定义好的几何规则约束,在复杂场景下的不规则文本问题上并不够灵活。
图3 仿射变换和本文体提出的纠正模型MORN的对比
我们基于分解的思想,提出了一种像素级预测的不规则文本纠正模型。我们将文本图像分解为多块小图像,对每块小图像回归偏移值,并对偏移值进行平滑操作后,在原图像上进行采样,得到新的形状更加规则的水平文本。
图4 整体网络结构
结合注意力机制下的识别模型,我们的模型MORAN在多个测试集上表现优秀(投稿时达到当时最高准确率)。
表1 MORAN在7个测试集上的准确率
在该论文基础上,我们近期又进行了如下一些改进,使得MORAN的稳定性和准确率得到了进一步提升。(1)增强了纠正模型的稳定性,降低了训练难度,实现了单步训练;(2)使用ResNet作为主干网络;(3)从华中科技大学白教授课题组的工作中[2]借鉴的双向解码器思想。
表2 MORAN v2的准确率提升
(注:MORAN v1是PR论文录用版本的模型,MORAN v2是我们最新改进的模型)
论文arXiv版本: https://arxiv.org/abs/1901.03003
代码下载地址1: https://github.com/HCIILAB/MORAN_v2
代码下载地址2: https://github.com/Canjie-Luo/MORAN_v2
[1] W. Liu, C. Chen, K.-Y. K. Wong, Z. Su, and J. Han. STAR-Net: A spatial attention residue network for scene text recognition[C]. BMVC, 2016.
[2] Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE TPAMI, 2018.
[3] Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]. NIPS, 2015.
本推文作者简介:罗灿杰,华南理工大学在读博士生,主要研究方向为场景文字检测与识别、深度学习及其应用。
(长按识别上图二维码加关注)